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摘 要 组 织 管理 领域 的 多 层次 研究 经 常 需 要 测量 共享 单位 特性 构 念 ， 常 用 方法 是 将 单位 内 若干 个 体 
成 员 的 评分 聚合 到 单位 层次 ， 确 保 聚 合 后 的 分 数 具 有 充分 代表 性 的 统计 前 提 是 通过 聚合 适当 性 检验 。 
聚合 适当 性 检验 的 常用 指标 是 组 内 一 致 性 rwc 和 组 内 信 度 ICC(1)、ICC(2)， 但 目前 学 界 对 于 这 两 类 指 
标 何 者 更 优 、rwe 的 原 分 布 选择 和 数据 清理 、 各 指标 的 划 界 值 等 关键 问题 存在 诸多 争议 。 为 此 ， 首 先 
对 国内 9 份 管理 学 ,心理 学 期 刊 2014 年 以 来 发 表 的 166 篇 包含 聚合 适当 性 检验 的 论文 进行 内 容 分 析 ， 
并 以 Journal of Applied Psychology 上 的 85 篇 论文 为 对 比 ， 查 明 常 规 实践 中 的 共性 问题 ， 进 而 提出 实 
践 建议 : (1) 明确 功能 定位 ， 将 rws 作为 聚合 适当 性 指标 ，ICC(1) 和 ICC(2) 分 别 作 为 效 度 、 信 度 指 
标 。 (2) 计算 rws 时 审慎 选择 原 分 布 ， 排 除 组 内 一 致 性 过 低 的 组 。 (3 ) 为 各 指标 设 定 更 加 合理 、 有 
适度 灵活 性 的 划 界 值 ， 停 止 使 用 武断 、 粗 糙 的 经 验 标准 。 最 后 ， 强 调研 究 者 在 模型 构建 和 聚合 决策 中 
应 加 强 理论 考量 ， 避 免 片面 依赖 统计 检验 结果 。 
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多 层次 组 织 管理 研究 经 常 需要 测量 处 于 团体 或 组 织 水 平 的 高 层次 构 念 。 实 证 研究 中 最 常见 的 高 层 


次 构 念 是 共享 单位 特性 (shared unit property) 构 念 ， 如 团队 凝聚 力 、 团 队 效 能 ， 测 量 这 类 构 念 时 ， 


通常 根据 合成 模型 (composition model) 的 思想 ， 由 团体 内 的 若干 成 员 分 别 做 出 评定 ， 取 成 员 评分 的 


均值 作为 高 层次 构 念 的 代理 值 (proxy) ， 这 就 是 数据 聚合 Caggregation? (Chan，1998)。 为 保证 聚合 


后 的 构 念 能 够 代表 全 体 成 员 的 “共享 ”知觉 ， 需 要 满足 一 个 统计 前 提 ， 即 团队 成 员 的 评分 有 足够 的 相 


似 性 (Cohen Doveh, & Eick, 2001; Klein & Kozlowski, 2000; #KfE28, $2626, 2006), 评估 数据 能 否 达 到 


这 一 “门槛 ”的 方法 被 称 为 数据 育 合 适当 性 检验 。 


数据 聚合 适当 性 检验 有 两 条 独特 而 又 互补 的 路 径 (Kozlowski & Klein, 2000; LeBreton & Senter, 


2008; Shen, 2016; 张 志 学 , 2010)。 一 是 组 内 一 致 性 /共识 〈within-group agreement/consensus) 检验 ， 衡 


量 多 个 评定 者 对 某 一 构 念 的 评分 的 绝对 一 致 性 ， 即 评分 是 否 完全 相等 ， 常 用 指标 是 rwc 。 充 分 的 组 内 


一 致 性 既是 共享 特性 构 念 的 构成 要 素 ， 也 是 构 念 效 度 的 证 据 (Bliese，2000; James, 1982; Klein, Conn, 


! 与 之 相近 的 一 个 概念 是 “情境 变量 ”或 “脉络 变量 ” (contextual variable) ， 指 的 也 是 由 个 体 层 次 的 观测 数据 聚合 而 
来 的 高 层次 构 念 ， 但 情境 变量 不 仅 包括 共享 单位 特性 构 念 ， 还 包括 单纯 反映 群体 特征 、 不 要 求 组 内 同 质 性 的 生成 性 
(formative) 构 念 ， 如 将 学 校 中 所 有 学 生 的 社会 经 济 地 位 取 均 值 形 成 学 校 平均 社会 经 济 地 位 ， 它 不 需要 以 所 有 学 生 有 
相近 的 社会 经 济 地 位 为 前 提 ( 参 见 TAS, DIST, 张 敏 强 , 2011; 于 海 波 , 方 俐 洛 , BHE, 2004)。 这 类 构 念 不 在 本 文 讨 
论 范围 之 内 ， 后 文 的 “高 层次 构 念 ” 亦 特 指 共享 单位 特性 构 念 。 
”评定 项 目 只 有 1 个 时 记 作 rwcwm， 有 了 个 平行 项 目 时 记 作 rwew)。 为 行文 方便 ， 后 文 统一 使 用 rwe。 


a 


Smith, & Sorra, 2001)。 二 是 组 内 信和 度 (within-group reliability) 检验 ， 衡 量 多 个 评定 者 评分 的 相对 一 
致 性 ， 即 评分 的 相对 等 级 是 否 相 同 ， 而 不 是 绝对 分 数 是 否 相 等 ， 常 用 指标 包括 组 内 相关 系数 ICC(1)、 
ICC(2)、 方 差分 析 的 全 等 。 这 两 “ 族 ” 指 标 分 别 触及 聚合 适当 性 的 不 同 侧面 , 往往 在 研究 中 结合 使 用 。 
随 着 多 层次 研究 成 为 组 织 管理 研究 的 主流 范式 , 高 层次 构 念 的 测量 和 数据 聚合 一 度 成 为 热门 方法 学 议 
， 但 从 当前 的 研究 进展 来 看 ， 数 据 聚 合适 当 性 检验 还 面临 一 些 悬 而 未 决 的 难题 ， 其 中 最 关键 的 问题 
三 个 ， 分 别 与 指标 选择 、 指 标 计算 和 结果 解释 有 关 。 

第 一 ， 关 于 组 内 一 致 性 和 组 内 信 度 何者 为 数据 聚合 的 “黄金 标准 ”。 组 内 一 致 性 和 组 内 信 度 分 别 
关注 组 内 变异 和 组 间 变 异 ， 其 理论 基础 、 侧 重点 、 计 算 和 解释 方法 各 有 不 同 ， 完 竟 哪 一 指标 可 以 为 聚 
合 决 策 提供 更 有 价值 的 信息 ， 一 直 吸 引 着 研究 者 的 兴趣 。George 和 James (1993) 曾 明确 指出 ， 聚 合 只 
有 两 个 必要 条 件 , 一 是 在 理论 上 证 明 某 构 念 应 定位 于 团体 层次 ,二 是 在 统计 上 证 明 组 内 成 员 的 评分 有 
足够 的 共识 。 换 言 之 , 聚合 适当 性 与 组 间 差 异 无 关 , 组 内 一 致 性 才 是 首要 甚至 唯一 标准 (Newman & Sin, 
2020)。 不 过 ,组 内 一 致 性 的 指标 rws 有 很 多 局 限 性 ， 如 易 受 题 项 数量 和 组 内 人 数 〈group size) 影响 、 


DS 


题 
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原 分 布 (null distribution) 设 定 不 当 导致 估计 偏差 等 Brown & Hauenstein, 2005; O'Neill, 2017)， 因 此 多 


数 研 究 会 同时 报告 组 内 信 度 以 期 弥补 这 些 缺 点 .还 有 研究 (Woehr, Loignon, Schmidt, Loughry, & Ohland, 
2015) 构 造 了 模拟 数据 ， 发 现 rws 辨别 “ 伪 一 致 性 ”的 能 力 不 及 ICC(1) 和 ICC(2)， 建 议 以 组 内 信 度 作 
为 聚合 的 主要 标准 。 虽然 组 内 一 致 性 和 组 内 信 度 在 实际 应 用 中 可 以 并 行 不 悖 ,但 研究 者 大 多 只 是 简单 
罗列 结果 ， 未 能 对 二 者 功能 和 角色 上 的 差异 进行 细致 考察 。 

第 二 ， 关 于 rwe 的 计算 和 使 用 ， 主 要 涉及 原 分 布 选择 和 数据 清理 问题 。rwc 是 一 个 标准 化 度量 
(Krasikova & LeBreton, 2019)， 通 过 比较 组 内 成 员 评分 的 实际 变异 与 评分 完全 没有 一 致 性 时 的 期 望 变 
异 之 相对 大 小 ， 得 到 误差 变异 的 减少 比例 以 表征 组 内 一 致 性 。 这 里 的 “完全 没有 一 致 性 ”最 初 被 界定 
为 “随机 反应 ” 即 所 有 成 员 的 评分 均匀 地 分 布 在 所 有 选项 上 ,由 此 建立 的 原 分 布 称 为 均等 分 布 (uniform 
distribution) 或 矩形 分 布 。 然 而 ， 评 定 者 常 带 有 反应 偏差 (response bias) ， 使 评分 向 某 些 选 项 发 生 系 
统 性 集中 ， 此 时 的 期 望 变异 小 于 均等 分 布 的 期 望 变异 (Bliese，2000; James, Demaree, & Wolf, 1984; 
Kozlowski & Hattrup, 1992)，rwc 也 会 相应 缩减 。 由 于 均等 分 布 未 能 考虑 反应 偏差 的 影响 ， 在 很 多 时 候 
并 非 刻 画 无 一 致 性 的 最 佳 原 分 布 ， 且 计算 出 的 结果 容易 高 估 组 内 一 致 性 ， 已 有 很 多 学 者 呼吁 摆脱 对 均 


等 分 布 的 过 度 依赖 (e.g., Bliese, 2000; Brown & Hauenstein, 2005; Klein & Kozlowski, 2000), 但 很 难 确定 


原 分 布 的 最 佳 选 项 。 另 外 , rwc 值 不 够 高 的 个 别 样本 组 是 否 应 从 后 续 分 析 中 排除 , 也 引起 了 一 些 争议 。 
第 三 ,关于 各 指标 的 划 界 值 。 文 献 大 都 建议 rwe 和 ICC(2) 以 0.7 为 理想 水 准 (e.g., Klein & Kozlowski, 


2000)， 但 越 来 越 多 的 学 者 提出 了 质疑 ， 认 为 0.7 的 经 验 标准 过 于 随意 Carbitrary) 和 粗糙 ， 只 是 一 种 


缺乏 理论 基础 的 主观 判断 ， 而 且 将 组 内 一 致 性 的 标准 与 信 度 的 标准 混为一谈 根本 就 是 错误 的 (Cohen， 


Doveh, & Nahum-Shani, 2009; Lance, Butts, & Michels, 2006; W35 Æ, Bü, 2015). ICC) RARE 


JME 0.12 也 有 类 似 次 端 。 不 过 到 目前 为 止 ， 合 适 的 划 界 值 沿 无 定论 。 


聚合 适当 性 检验 可 以 说 是 多 层次 研究 的 “ 呐 基 工程 ”之 一 ， 发 挥 着 “守门 ”和 “预警 ”的 重要 作 


用 ， 直 接 关 系 到 高 层次 构 念 是 否 有 合理 的 存在 以 及 构 念 间 的 关系 能 否 得 到 准确 估计 。 当 前 ， 多 层次 研 
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应 分 析 等 复杂 统计 方法 的 运用 ， 对 数据 聚合 中 的 “陷阱 ”和 “最 佳 实践 ” 则 鲜 有 专门 研究 ， 基 本 上 只 
是 沿袭 前 人 的 惯用 做 法 ,本 研究 力图 


| 


究 者 的 关注 点 多 集中 于 多 层次 模型 的 构建 、 多 层次 中 介 和 调节 效 


弥补 这 一 缺憾 , 帮助 国内 学 者 规避 概念 上 的 误解 和 方法 上 的 误 用 ， 


主要 目的 有 两 个 : 第 一 ， 以 前 述 三 个 关键 问题 为 指引 ， 通 过 对 近年 国内 文献 的 系统 回顾 、 评 价 以 及 与 


国外 权威 期 刊 的 对 照 ， 管 颖 学 者 在 聚合 适当 性 检验 中 的 常规 实践 ， 揭 示 共 性 问题 和 朴 漏 之 处 ， 第 二 ， 


对 三 个 关键 问题 进行 剖析 并 给 出 实践 建议 。 在 此 基础 上 ， 本 研究 提出 应 当 更 细致 地 检视 和 辨析 各 聚合 


指标 的 功能 ,将 聚合 适当 性 检验 严格 限定 为 组 内 一 致 性 检验 ， 各 样本 组 的 组 内 一 致 性 达标 后 再 使 用 组 


内 信和 度 指标 检验 构 念 的 信和 度 、 效 度 ， 
统合 起 来 。 
2 方法 


2.1 期 刊 选择 


从 而 在 “共享 单位 特性 构 念 的 信 效 度 检验 ”的 框架 下 将 这 些 指标 


为 确保 入 选 文 献 具 有 较 高 的 学 术 水 平和 代表 性 ， 能 够 全 面 反映 学 术 界 对 数据 聚合 问题 的 理解 , 我 


们 优先 从 国内 管理 学 核心 期 刊 中 选取 目标 期 刊 ， 入 选 标准 为 : 中 有 公认 的 权威 性 和 学 术 影响 力 。 包 属 


YY 


于 国家 自然 科学 基金 委员 会 管理 科学 部 认定 的 重要 学 术 期 刊 。@ 发 表 的 组 织 管理 、 组 织 行为 方面 的 论 


文 较 多 ， 以 有 相关 专栏 为 宜 。 经 讨论 ， 最 终 选 择 了 7 份 期 刊 ， 即 《管理 世界 》《 南 开 管理 评论 》《 管 


Md 


里 科学 》《 管 理 评论 》《 科 研 管理 》 


行为 学 论文 ， 我们 又 选取 了 《心理 学 报 》 和 《心理 科学 》2 份 期 刊 。 


《管理 学 报 》《 管 理工 程 学 报 》。 考 虑 到 心理 学 期 刊 也 发 表 组 织 


同时 ,为 追踪 国外 研究 现状 , 与 国内 研究 形成 对 照 ， 我 们 还 选择 了 工业 与 组 织 心理 学 领域 的 国际 


权威 期 刊 Journal of Applied Psychology (JAP)， 该 刊 也 是 国外 同类 回顾 式 研究 (e.g., Meyer, Mumford, 


Burrus, Campion, & James, 2014; Woehr et al., 2015) 中 常见 的 文献 检索 源 刊 。 


”作者 感谢 审 稿 专 家 提出 的 将 国外 代表 性 期 刊 纳入 分 析 的 建议 ， 但 由 于 时 间 和 精力 所 限 ， 本 研究 只 选择 了 JAP 一 份 其 
刊 ， 不 足以 全 面 反映 国外 学 者 对 察 合适 当 性 问题 的 处 理 ， 其 分 析 结 果 也 不 能 推论 至 其 他 国外 文献 。 不 过 ， 本 研究 侧重 


Pas 


ap 


于 对 国内 文献 的 回顾 和 评价 ，JAP 的 结果 3 


要 供 读 者 参考 。 


2.2 文献 检索 


从 目标 期 刊 中 筛选 样本 文献 ， 入 选 标准 为 : 中 研究 中 包含 至 少 一 个 共享 单位 特性 构 念 。 凶 共享 单 
位 特性 构 念 的 评分 来 自 组 内 个 体 成 员 评 分 的 聚合 。 @) 明 确 报告 了 共享 单位 


特性 构 念 的 聚合 适当 性 检验 
结果 (rwa、ICC(1)、ICC(2) 或 方差 分 析 结 果 ) 。 ORRIN [8] 7J 2014 *E 1 H 1 H 2019 4 12 H 31 日。 


xd 


对 于 中 文 期 刊 ， 我 们 以 两 种 方式 检索 样本 文献 : 一 是 关键 词 检索 ， 在 中 国 知 网 的 高 级 检索 系统 中 输入 


“聚合 ”、“ 汇 聚 ”、“rwg”、“ICC” 等 关键 词 ， 并 限定 发 表 时 间 和 期 刊 范围 ， 对 检索 到 的 文献 逐 
篇 审核 ， 确 定 合格 文献 ; 二 是 手工 检索 ， 查 阅 目标 期 刊 2014 年 以 来 在 组 织 行为 、 人 力 资源 管理 、 组 


织 管理 .工商 管理 、 创 新 与 创业 管理 等 栏目 发 表 的 每 一 篇 论文 , 从 中 筛选 文献 。 对 于 JAP, 借助 PsycInfo 
数据 库 逐 篇 浏览 并 筛选 。 作 者 和 助手 先 独立 筛选 ， 然 后 进行 比 对 、 补 缺 ， 就 入 选 文 献 达成 一 致意 见 。 


à 初步 入 选 的 文献 有 259 篇 ， 为 避免 无 效 数据 的 干扰 ,我 们 又 依据 两 条 标准 排除 了 8 篇 文献 : 中 结果 报 
ST 告 笼 统 ， 无 法 识别 各 变量 检验 结果 的 具体 数值 (6 篇 ) 。 包 对 个 体 层 次 构 念 进行 了 不 必要 的 聚合 适当 


性 检验 (2 篇 ) 4*。 最 终 入 选 的 文献 共有 251 篇 (中文 166 篇 、 英 文 85 篇 ) ， 详 见 表 1。 
表 1 样本 文献 发 表情 况 
发 表 年 度 及 数量 


Iu 


期 刊 影响 因子 ”一 一 一 一 总 计 

2014 2015 2016 2017 2018 2019 
管理 世界 7.260 1 1 1 0 1 2 6 
南开 管理 评论 6.953 1 5 7 2 3 1 19 
管理 科学 5.158 1 1 4 1 4 3 14 
管理 评论 4.668 4 5 3 7 4 2 25 
科研 管理 4.280 4 4 2 2 5 5 22 
= 管理 学 报 3.813 3 6 3 5 4 12 33 
管理 工程 学 报 2.968 0 3 5 3 1 1 13 
心理 学 报 3.285 5 5 3 3 3 6 25 
心理 科学 1.641 1 1 2 1 1 3 9 
JAP 5.067 23 21 16 9 11 5 85 
合计 一 一 43 52 46 35 37 40 251 

注 :“ 中 文 期 刊 据 中国 知 网 发 布 的 2019 版 期 刊 复 合影 响 因 子 ，JAP 据 ICR 2019 版 影响 因子 。 

2.3 编码 


根据 预先 讨论 形成 的 编码 清单 ， 对 每 一 共享 单位 特性 构 念 都 从 以 下 几 方面 进行 编码 : CIO 构 念 


的 基本 信息 ， 包 括 名 称 、 性 质 《〈 自 变量 / 因 变 量 /中 介 变 量 / 调 节 变 量 / 控 制 变量 ) 、 题 项 数 、 计 分 点 数 、 


组 内 平均 人 数 。(2) 使 用 的 聚合 适当 性 检验 指标 及 结果 报告 情况 。(3 ) 各 指标 的 划 界 值 及 来 源 。(4) 


^ 这 两 篇 文献 均 建立 了 低 水 平 中 介 模 型 (2-1-1 模型 或 1-1-1 模型 ) 并 计算 了 个 体 层 次 构 念 的 聚合 指标 ， 我 们 推测 这 与 
建 模 时 需要 将 层 1 变量 按 组 均值 中 心 化 并 将 组 均值 置 于 层 2 截 距 方程 式 有 关 ， 但 这 样 做 是 统计 分 析 的 需要 《分 离 组 间 
效应 和 组 内 效应 ) ， 不 是 理论 驱动 下 的 聚合 ， 故 没有 必要 做 聚合 适当 性 检验 。 


聚合 决策 。 

文献 编码 由 作者 和 助手 共同 完成 ， 具 体 程序 为 : 第 一 ， 从 入 选 的 中 文 文献 中 随机 抽取 约 10% (15 
篇 ) 为 测试 样本 ,两 人 进行 背靠背 的 独立 编码 , 编码 完毕 后 逐 项 比 对 , 发现 总 编码 一 致 性 为 93.75%， 
分 歧 之 处 由 两 人 讨论 确定 解决 方案 。 第 二 , 将 其 余 文 献 分 为 两 半 , 两 人 分 别 负责 其 中 一 半 的 编码 工作 。 
第 三 ， 完 成 各 自 的 文献 编码 后 ， 互 相 从 对 方 负责 的 文献 中 随机 抽取 10% (25 篇 ) 进行 二 次 编码 和 交 
又 复核 ， 发 现 这 50 篇 文献 的 总 编码 一 致 性 为 95.40%。 据 此 认为 本 研究 的 文献 编码 有 较 高 的 可 信和 度 。 


结果 
3.1 概览 
166 篇 中 文 文献 中 ， 共 有 384 个 变量 接受 了 聚合 适当 性 检验 ， 包 括 自 变量 142 个 (36.98%) 、 因 


变量 50 个 (13.02%) 、 中 介 变 量 88 个 (22.92%) 、 调 节 变 量 93 个 (24.22%) 、 中 介 + 调 节 变 量 2 


个 (0.52%) 、 控 制 变量 9 个 (2.34%) 。 有 362 个 变量 报告 了 题 项 数量 ， 范 围 在 1~42 之 间 ， 均 值 为 


8.27 (SD=6.45) ， 中 位 数 为 6， 题 项 数 不 超 过 6 个 的 变量 占 54.97%， 不 超过 15 个 的 占 88.12%。 有 


333 个 变量 报告 了 Likert 量 表 的 计 分 点 数 , 使 用 $ 点 .6 点 ,7 点 的 变量 分 别 占 55.86%、12.01%、30.63%。 
有 354 个 变量 能 够 识别 组 内 平均 人 数 , 在 1.68~41.00 之 间 , 均值 为 6.02 (SD=4.18) ， 中 位 数 为 5.10， 
人 数 不 超过 5 的 变量 占 47.18%, 不 超过 10 的 占 91.2496. 使 用 的 聚合 适当 性 指标 主要 有 rwo、 ICC(1)、 


ICC(2)、 方 差分 析 的 五 检验 ， 有 40 篇 (24.10%) 文献 报告 了 4 个 指标 ，101 篇 (60.84%) 报告 了 3 


个 指标 ，13 篇 (7.83%) 报告 了 2 个 指标 ，12 篇 (7.23%) 报告 了 1 个 指标 ， 有 156 (93.98%) 报 


告 了 rwe 值 ，150 (90.36%) 报告 了 ICCOME, 146 篇 (87.95%) 报告 了 ICC(2MÉ 50 篇 (30.1296) 


O 报告 了 检验 结果 ;有 137 58 (82.53%) 同时 报告 了 rwc、ICC(D 和 ICC(2)。 聚 合 决策 方面 ， 有 6 个 
变量 因 ICC(1)、ICC(2) 过 小 或 检验 不 显著 而 被 当做 个 体 层次 变量 ， 其 余 变 量 均 被 聚合 到 高 层次 。 
85 篇 JAP 文献 中 ， 共 有 282 个 变量 接受 了 聚合 适当 性 检验 ， 题 项 数量 在 1-23 之 间 (n=265) , 
均值 为 5.68 (SD=3.92) , 中 位 数 为 5; 使 用 5 点 .6 点 、7 点 计 分 的 变量 分 别 占 37.59%、11.35%、37.94% 
位 数 为 4.76。 检 验 指标 方 
面 ， 有 71 篇 (83.53%) 报告 了 rwc 值 ，78 篇 (91.7696) 报告 了 ICCOME, 73 篇 (85.88%) 报告 了 


(12247) ; 组 内 人 数 在 1.63~218.99 之 间 ， 均 值 为 11.56 (SD=24.49) ， 


ICC(2) 值 ，56 篇 (65.88% ) 报告 了 下 检验 结果 5，61 篇 (71.7690) 同时 报告 了 rwc、ICC(D) 和 ICC(2)。 


有 4 个 变量 因为 检验 不 达标 或 出 于 理论 原因 未 聚合 。 


> JAP 文献 中 还 有 3 篇 使 用 了 均 差 指数 (average deviation index) ， 由 于 该 指标 比较 少 用 且 与 rwe 相 关 性 较 强 ， 本 文 暂 
不 讨论 。 


3.2 rys f& R3 ER TZ 
rwo 以 单个 样本 组 为 单位 计算 ， 有 学 者 建议 ， 如 果 无 法 一 一 报告 各 组 的 rwe 值 ， 应 报告 所 有 样本 
组 的 rwo 均 值 \ 中 位 数 、 范 围 . 达 到 划 界 值 的 组 数 等 汇总 信息 (Burke, Cohen, Doveh, & Smith-Crowe, 2018; 


Cohen et al., 2009; Klein & Kozlowski, 2000)。 如 表 2 所 示 ， 中 文 样本 文献 中 有 近 90% 报 告 了 rwe 的 均 
值 ， 有 超过 25% 报 告 了 中 位 数 ， 但 rws 的 范围 和 达到 划 界 值 的 组 数 的 报告 率 很 低 ， 只 有 1 篇 文献 ( 张 
B, EAR, 贺 伟 ，2014) 完 整 报 告 了 这 4 项 统计 量 。 尤 其 值得 注意 的 是 ， 只 有 3 篇 文献 明确 报告 了 计 


算 rwc 值 依据 的 原 分 布 ， 其 中 2 篇 ( 韩 志 伟 , 刘 丽 红 , 2019; 李 敏 , 周 恋 , 2015) 同 时 使 用 了 均等 分 布 和 1 
态 分 布 , 1 篇 ( 邓 今 朝 ， 喻 梦 共 ， 丁 棚 平 , 2018) 提 及 使 用 了 均等 分 布 , 但 都 没有 给 出 选择 原 分 布 的 理由 ; 
相 比 之 下 ，JAP 文献 中 有 15 篇 报告 了 原 分 布 ， 其 中 1 篇 同时 使 用 了 3 种 “均等 分 布 、 偏 态 分 布 和 三 
角形 分 布 ) ，6 篇 同时 使 用 了 2 种 (均等 分 布 和 偏 态 分 布 ) ，8 篇 使 用 了 1 种 (均等 分 布 和 偏 态 分 布 
各 4 篇 ) ， 并 有 5 篇 给 出 了 理由 。 


En 


表 2 样本 文献 的 rw 结果 报告 情况 


报告 数量 报告 数量 
报告 项 目 ( 按 变 量 计 )* ( 按 文 献计 )?" 
n % n % 
m 3137157. 8743/7.60 13853 8846/7465 - 
中 位 数 92/76 25.70/35.19 41/29 26.28/40.85 
范围 53/13 14.80/6.02 21/6 13.46/8.45 
达到 划 界 值 的 组 数 或 比例 32/4 8.94/1.85 12/3 7.69/4.23 
计算 依据 的 原 分 布 8/31 2.23/14.35 3/15 1.92/21.13 
ik: 表 中 数据 ，“/” 左 侧 为 中 文 文献 ， 右 侧 为 JAP XH: N wx=358，N xx=216; PN #4x=156，N xx=71;“ 有 3 个 
变量 同时 报告 了 均等 分 布 和 偏 态 分 布下 的 rwc 均 值 ， 此 处 不 重复 计数 。 


虽然 绝 大 多 数 文献 没有 说 明 rwc 值 对 应 的 原 分 布 ,但 由 于 均等 分 布 是 研究 者 惯常 使 用 的 默认 选项 ， 
我 们 参照 Woehr 等 (2015) 的 做 法 , 将 信息 缺失 者 均 视 为 均等 分 布下 的 计算 结果 。 对 基于 均等 分 布 的 rwe 
均值 和 中 位 数 进 行 描述 性 统计 ， 结 果 见 表 3。 中 文 文献 中 的 变量 的 组 内 一 致 性 总 体 较 高 ， 从 rwc 均 值 
来 看 ， 达 到 0.8 的 变量 超过 80%， 达 到 0.9 的 变量 超过 40%， 平 均值 为 0.871， 中 位 数 为 0.876， 只 有 
2 个 变量 的 rwc 均 值 低 于 0.7， 但 依然 进行 了 聚合 ， 从 rwc 中 位 数 来 看 ， 达 到 0.9 的 变量 占 70%， 平 均 
值 为 0.908。JAP 文献 中 的 rws 值 的 各 项 统计 指标 均 略 低 于 中 文 文献 。 另 外 ， 中 文 文献 中 使 用 偏 态 分 
布 计算 的 3 个 变量 的 rwc 均 值 分 别 为 0.84、0.93、0.70，JAP 文献 中 使 用 偏 态 分 布 计算 的 12 个 rw 29 


值 在 0.67~0.97 之 间 。 


“有 49 篇 文献 中文 31 篇、 英文 18 篇 ) 没有 说 明报 告 的 是 rwe 的 均值 还 是 中 位 数 ， 大 多 模糊 地 称 为 “rwc 值 ”， 考 
虑 到 均值 是 最 常用 的 统计 量 ， 故 都 按 均值 对 待 。 


来 源 统计 量 
中 文 文献 mmwc 均 值 
rwc 中 位 数 
JAP 文献 rwc 均 值 
rwc 中 位 数 
注 : Me= 中 位 数 。 


3.3 ICC(1) 结 果 报 告 情 、 


检验 结果 ， 只 有 1 个 变量 未 达到 0.05 的 显著 水 平 ， 


JAP 文献 中 ICC(1) 值 


由 表 4 可 知 ， 中 文 文献 中 ICC(1) 值 的 均值 为 0.276， 
界 值 0.12。 有 19 个 变量 的 ICC(1) 值 低 于 0.1, 


表 3 样本 文献 中 基于 均等 分 布 的 rwc 值 的 描述 性 统计 


达到 相应 值 的 变量 数量 及 比例 
n M SD Me 范围 
20.7 20.8 20.9 
311 265 134 
1 .871 | 0071 0.876  0.572-0. 
"B 4 876 — 0.572-0.990 9 369) (84.66%) (42.81%) 
92 84 65 
92 0.908 0.067 0.926 0.750~0.980 
(100%) — (91.309) (70.65%) 
142 102 42 
148 0.840 0.084 0.840  0.630-0.990 
(95.95%) (68.92%) (28.38%) 
70 61 37 
74 0.878 0.089 0.895 0.610-0.990 
(94.59%) (82.4395) (50.0090) 


位 数 为 0.250，90% 达 到 了 最 常 被 引用 的 划 
其 中 4 个 未 聚合 。 另 有 114 个 变量 报告 了 方差 分 析 的 乒 
作者 也 做 出 了 不 聚合 的 

的 均值 和 中 位 数 分 别 为 0.241、0.210， 达 到 0.12 的 比例 亦 低 于 ! 


LAE. 


32 个 变量 的 值 低 于 0.1， 


BA 


TEA BA 


中 3 KZ 163 个 到 检验 结果 中 有 3 个 不 


其 中 1 个 未 


XC RA 336* 


XC HA 247 
FE: Me= 中 位 数 ; 


3.4 ICC(2) 结 果 报 告 情 ; 


0.276 


0.241 


“不 包括 只 


由 表 5 可知， 中 文 文献 中 ICC(2) 值 的 均值 为 0.695， 


ZKH o SE ZKH o 


表 4 样本 文献 中 
达到 相应 值 的 数量 及 比例 
>0.20 >0.30 


SD 


Me 范围 


>0.12 


304 
(90.48%) 


195 
(78.95%) 


>0.40 


231 
(68.75%) 


132 
(53.44%) 


127 
(37.80%) 


69 
(27.94%) 


61 
(18.15%) 


39 
(15.79%) 


0.141 0.250 0.011~0.790 


0.157 0.210 — 0.010-0.851 


E. 
里 。 


笼统 地 报告 了 ICC(1)>0.05 的 3 个 变 


位 数 为 0.714， 达 到 传统 划 界 值 0.7 的 刚刚 


超过 一 半 ; 有 38 个 变量 的 ICC(2) 值 低 于 0.5， 其 中 5 个 未 聚合 。JAP 文献 中 ICC(2) 的 均值 和 中 位 数 分 
别 为 0.596、0.630， 达 到 0.7 的 仅 有 三 分 之 一 ， 有 70 个 变量 的 值 低 于 0.5， 其 中 4 个 未 聚合 。 
表 5 样本 文献 中 ICC(2) 值 的 描述 性 统计 
| 达到 相应 值 的 数量 及 比例 
来 源 n M SD Me 范围 
>0.6 >0.7 >0.8 >0.9 
M a y 241 185 93 35 
中 文 文献 322 0.695 0.177 0.714 0.047~0.991 a Anode W 
PEN , 133 84 36 14 
JAP 文献 232 0.596 0.204 0.630  0.100-0.980 Sas). Geos. Vises “eae 
注 : Me= 中 位 数 ; ?不 包括 只 笼统 地 报告 了 ICC(2)>0.5 的 3 个 变量 。 


3.5 RAES FETAL 


SCHR; JAP 文献 中 有 20 篇 (23.5390) 给 出 了 划 界 值 ，44 篇 (51.76%) 引用 了 文献 ， 
有 rwc 值 都 使 用 了 0.7 的 标准 ， 


有 112 篇 (67.47%) 中 文 文献 给 出 了 至 少 一 个 聚合 指标 的 划 界 值 ，64 篇 (38.55%) 引用 了 来 源 


见 表 6。 几 乎 所 


ICC(1) 的 划 界 值 以 0.12 和 0.05 为 多 ，ICC(2) 最 常用 的 为 0.5 410.7. CR 
文 文献 亦 有 多 篇 使 用 。 中 英文 文献 在 划 界 值 的 源 文献 上 有 较 大 分 歧 : 在 中 文 文献 中 ，James 的 3 


篇 经 典 文献 James, 1982; James et al., 1984; James, Demaree, & Wolf, 1993) 的 被 引 次 数 遥 遥 领 先 ， 


关于 服务 氛围 和 服务 质量 的 实证 研究 (Schneider White, & Paul, 1998) 也 得 到 了 多 次 引用 (ICC(O2) 的 一 


^P Xl B 70.47 出 自 该 文 );J4P 文 献 最 常 引用 的 则 是 Bliese (1998, 2000) 与 LeBreton 和 Senter (2008), 


提 及 James 和 Schneider 文 的 明显 较 少 。 


指标 
7WG 


ICC(1) 


ICC(2) 


表 6 样本 文献 使 用 的 划 界 值 统计 


划 界 值 。 被 引 次 数 主要 源 文献 
0.7 96/12 James 等 (1982, 1984, 1993) (41/10) * 
0.05 28/1 Bliese (1998, 2000) (12/28) 
0.1 11/0 LeBreton & Senter (2008) (2/18) 
0.12 32/4 Schneider (1998) (10/1) 
0.47 10/0 Klein & Kozlowski (2000) (4/3) 
0.5 34/0 Glick (1985) (0/5) 
0.6 7/4 张 志 学 (2010) (3/0) 
0.7 30/7 


关系 ;“ 文 献 后 括号 里 的 数字 表示 被 引 次 数 。 


4 讨论 


对 国内 9 份 管理 学 、 心 到 


的 多 层次 研究 都 将 聚合 适当 性 检验 视 为 数据 分 析 的 前 置 程序 ， 广 泛 使 用 rwc、ICC( 


为 聚合 提供 实证 证 据 。 从 各 指标 的 汇总 


等 (2015) 回 顾 了 1998-2012 年 发 表 于 Academy of Management Journal 等 4 份 权威 期 


ik: 表 中 数据 ，“/” 左 侧 为 中 文 文献 ， 右 侧 为 JAP 文献 ， 源 文献 与 左 侧 的 划 界 值 无 对 应 


学 期 刊 2014 年 以 来 的 文献 分 析 表 明 ， 绝 大 多 数 包含 共享 单位 特性 构 念 


1)、ICC(2) 等 指标 


结果 来 看 ，rwc 和 ICC() 值 普遍 较 高 ，ICC(2) 相 对 略 低 。Woehr 


刊 的 189 篇 文献 ， 


发 现 基 于 均等 分 布 的 rwc 平 均值 为 0.84 (n=486), AG 90% 的 值 高 于 0.7, 近 30% 的 值 高 于 0.9; ICC(1) 


均值 为 0.21 (n=416) ， 超 过 75% 的 值 高 于 0.11; 


ICC(2) 均 值 为 0.66 (n=372) ， 只 有 近 一 半 的 值 高 于 


0.7. 本 研究 还 汇总 了 JAP 的 文献 , 发 现 rwoc、ICC(1) 和 ICC(2) 的 平均 水 平分 别 是 0.840. 0.241. 0.596. 


总 体 上 ， 与 JAP 文献 相 比 ， 国 内 文献 中 rwc、ICC(1) 和 ICC(2) 的 平均 水 平 (0.871、 
一 筹 ， 这 从 一 个 侧面 揭示 ， 国 内 优秀 期 刊 发 表 的 文献 的 数据 质量 已 达到 


高 ， 达 到 划 界 值 的 比例 也 略 胜 


际 主 流水 平 。 


0.276. 0.695) 更 


另 一 方面 , 国内 研究 在 聚合 适当 性 检验 中 也 存在 一 些 薄 弱 环 节 , 以 前 述 三 大 关键 问题 的 分 析 视 角 ， 
可 以 归结 为 下 列 三 点 

第 一 ， 对 组 内 一 致 性 和 组 内 信和 度 的 功能 未 加 区 分 。 大 多 数 研究 将 rwe、ICC(1)、ICC(2) 视 为 表征 

聚合 适当 性 的 平行 指标 ， 只 关心 计算 结果 是 否 达 到 了 “门槛 ”， 对 其 理论 意 涵 和 独特 用 途 思考 不 多 ， 

一 旦 组 内 一 致 性 和 组 内 信 度 的 结果 出 现 矛 盾 ( 如 rwc 值 很 高 但 ICC 值 较 低 ) ， 在 解释 结果 和 做 出 聚合 

决策 时 就 会 面临 两 难 境地 ; 还 有 个 别 研究 将 组 间 差 异 与 组 内 成 员 的 共识 程度 视 为 等 价 ，“ 绕 过 ”组 内 

一 致 性 而 仅 依据 ICC 值 做 出 聚合 决策 ， 有 构 念 误 设 Construct misspecification〉 的 风险 。 这 一 问题 在 
JAP 文献 中 也 较 普遍 

第 二 ， 计 算 rwc 时 未 能 审慎 选择 原 分 布 。 国 内 研究 者 普遍 将 均等 分 布 视 为 计算 rwc 时 “人 缺 省 ”其 

至 唯一 的 原 分 布 ， 甚 至 认为 没有 必要 次 述 这 一 “不 言 自 明 ” 的 和 常识， 结果 就 是 样本 文献 中 仅 有 3 篇 明 

确 报告 了 原 分 布 ， 仅 有 2 篇 使 用 了 均等 分 布 以 外 的 原 分 布 。 作 为 对 比 ，Meyer 等 (2014) 检 视 了 111 篇 

英文 文献 中 的 440 个 rwc 值 ， 发 现 24.1% 的 值 报告 了 原 分 布 ， 其 中 只 有 69.8% 使 用 的 是 均等 分 布 ; 在 

Woehr 等 (2015) 的 文献 回顾 中 ， 有 近 10% 的 rwe 值 使 用 了 轻 度 偏 态 分 布 ， 本 研究 编码 的 JAP 文献 中 有 

21.1% (15/71) 报告 了 原 分 布 ， 其 中 73.3% (11/15) 使 用 了 偏 态 分 布 。 可 见 ， 虽 然 国 外 研究 也 有 默认 

使 用 均等 分 布 的 “通病 ”， 但 原 分 布 的 报告 率 和 蔡 代 性 原 分 布 的 使 用 率 都 明显 高 于 国内 研究 。 另 一 个 

问题 是 结果 报告 不 够 完整 。 大 部 分 文献 只 报告 了 所 有 组 的 rwc 均 值 或 中 位 数 ， 忽 略 了 rwc 值 的 范围 和 

达到 划 界 值 的 组 数 。rwe 均值 和 中 位 数 只 是 对 所 有 样本 组 的 rwc 值 集中 趋势 的 刻画 ， 不 足以 体现 rwe 

值 在 组 间 的 离散 和 分 布 情况 ， 因 为 较 高 的 rwc 均 值 并 不 代表 所 有 组 的 rwc 值 都 能 达标 ， 完 全 可 能 存在 

= 个 别 rwc 值 很 低 、 达 不 到 聚合 基本 要 求 的 组 。 这 类 无 效 样本 组 只 能 通过 逐一 检视 各 组 的 rwc 值 来 识别 。 

第 三 ， 划 界 值 选取 杂乱 ， 部 分 引用 有 误 。 由 于 学 界 对 各 聚合 指标 的 划 界 值 尚 未 达成 共识 ， 稳 妥 的 

做 法 是 根据 研究 问题 和 情境 预先 设 定好 划 界 值 (Biemann, Cole, & Voelpel, 2012) 并 准确 引用 源 文献 。 中 

文 样 本 文献 中 虽然 有 三 分 之 二 指出 了 选用 的 划 界 值 ,但 只 有 约 40% 引 用 了 源 文献 , 而 且 如 果 细 加 查证 ， 

就 会 发 现 不 少 引用 是 错误 的 。 例 如, 很 多 研究 在 介绍 rwo ICCA ICC(2) 的 划 界 值 时 只 引用 了 James 

的 某 一 篇 文献 (如 最 著名 的 1984 年 发 表 于 JAP 的 论文 ) ， 实 际 上 除了 能 在 James (1982) 中 找到 一 个 

日 后 被 众多 学 者 “ 误 读 ”的 所 谓 ICC(1) 的 “标准 ” (0.12) “外 ， 这 几 篇 文献 没有 推荐 或 提 及 任何 一 个 


指标 的 划 界 值 ; ICC(2) 的 划 界 值 更 是 出 现 了 0.47、0.5、0.6、0.7 等 多 个 , 其 中 0.47 是 Schneider 等 (1998) 


7 James (1982, p.224) 回 顾 了 1970 年 代 对 组 织 气 氛 的 多 项 研究 , 发 现 组 内 一 致 性 的 中 位 数 为 0.12, 但 这 不 单纯 是 ICC) 
HAR, BAET YM e^ (这 几 个 指标 当时 被 认为 反映 了 组 内 一 致 性 ) ， 因 此 0.12 既 不 是 明确 提出 的 划 界 值 ， 更 不 
是 ICC(1) 的 合法 划 界 值 。 


从 自己 的 研究 数据 中 算得 的 ，0.5 的 来 源 则 无 据 可 考 ， 也 许 只 是 0.47 的 近似 值 ， 把 这 两 个 值 当成 划 界 
值 显然 不 合适 。 这 些 朴 漏 恺 怕 是 由 于 研究 者 没有 仔细 查证 原文 就 照搬 前 人 的 做 法 ， 导 致 以 论 传 这 。 相 
比 之 下 ，JAP 的 源 文献 引用 率 更 高 、 引 证 更 准确 ， 使 用 的 也 大 都 是 “正统 ”的 经 验 标准 。 
5 关键 问题 试 解 与 实践 建议 

从 国内 研究 暴露 出 的 普遍 性 问题 来 看 ， 引 言 中 提出 的 三 个 未 解难 题 已 成 为 正确 、 规 范 运用 聚合 适 
当 性 检验 的 障碍 ， 但 我 们 认为 这 些 难题 之 所 以 会 引起 疑惑 ， 不 在 于 统计 原理 的 高 深 复杂 ， 而 在 于 研究 
者 对 基本 理论 缺乏 明 察 和 深究 。 为 此 ， 本 部 分 将 从 理论 和 经 典 文献 出 发 ， 对 这 些 难题 进行 逐一 齐 析 ， 

尝试 提出 便于 应 用 型 研究 者 掌握 的 实践 建议 。 

5.1 聚合 指标 的 选择 

学 界 的 基本 共识 是 , 组 内 一 致 性 和 组 内 信 度 服务 于 不 同 的 研究 目的 , 并 非 相 互 葵 代 或 竞争 的 关系 ， 
而 是 从 不 同 角度 提供 了 关于 共享 单位 特性 构 念 信 效 度 的 信息 ， 在 聚合 检验 中 应 同时 使 用 。 但 是 ， 国 内 
学 者 往往 将 二 者 的 地 位 和 功能 简单 等 同 起 来 并 不 加 区 别 地 使 用 , 为 结果 的 解释 带 来 困惑 ( 徐 晓 锋 ， 刘 勇 
2007)。 以 下 将 从 理论 和 实证 两 方面 进行 讨论 和 澄清 。 
首先 ， 如 果 深 入 到 对 共享 单位 特性 构 念 的 理论 思考 中 ， 就 会 发 现 组 内 一 致 性 和 组 内 信 度 扮演 着 不 
同 的 角色 。 共 享 单位 特性 构 念 的 理论 意义 存在 于 团体 层次 ， 从 心理 测量 学 的 角度 看 就 是 只 有 组 水 平 的 
真 分 数 (Newman & Sin, 2020)， 但 该 分 数 的 源头 是 团体 内 个 体 成 员 的 态度 、 感 知 、 价 值 观 等 ， 并 经 和 
社会 化 、 领 导 、 内 部 互动 等 心理 过 程 的 影响 逐 
备 这 种 共同 认 知 ， 或 者 说 成 员 的 态度 、 想 法 不 一 致 ， 共 享 单位 特性 构 念 就 失去 了 存在 的 根基 ， 也 就 是 
团体 内 无 法 形成 一 个 能 够 有 效 代表 成 员 共同 认 知 的 集合 构 念 (Moritz & Watson, 1998; 于 海 波 等 , 2004), 
个 体 数据 的 聚合 也 没有 意义 ( 方 杰 , 张 敏 强 ， 印 些 政 , 2010)。 可 见 ， 聚 合 的 首要 标准 是 看 团体 成 员 的 意 
一 致 性 /共享 性 (sharedness) 如 何 ， 这 只 能 由 组 内 一 致 性 指标 “ 捕 提 ”到 ， 即 聚合 适当 性 检验 的 实 
质 是 组 内 一 致 性 检验 ， 组 内 一 致 性 达标 表示 组 内 成 员 评分 的 均值 是 共享 单位 特性 构 念 的 适宜 代理 值 


NS 


成 共同 的 认 知 (Kozlowski & Klein, 2000); 如 果 不 具 


(Cohen et al., 2001; Dunlap, Burke, & Smith-Crowe, 2003; Van Mierlo, Vermunt, & Rutte, 2009), 可 以 将 个 
体 评 分 聚合 到 单位 层次 。 
相 比 之 下 ， 组 内 信和 度 不 直接 指向 组 内 成 员 的 意见 一 致 性 ， 而 是 关心 组 间 差 异性 或 区 分 度 (Chan， 


1998; Kirkman, Tesluk, & Rosen, 2001; Quigley, Tekleab, & Tesluk, 2007; Van Mierlo et al., 2009)， 其 之 


所 以 得 到 极 大 关注 , 或 许 根本 原因 是 它 触及 研究 者 的 一 个 重大 关切 : 缺乏 组 间 变 异 可 能 导致 统计 检验 
HEIR I 型 错误 率 上 升 ， 使 该 构 念 对 其 他 构 念 的 预测 力 被 低估 (Bliese，1998; Bliese, Maltarich, 


Hendricks, Hofmann, & Adler, 2019; George & James, 1993; James, 1982; Moritz & Watson, 1998)， 削 弱 
研究 结果 的 可 信 度 。 从 这 个 角度 看 ， 组 内 信 度 检验 更 像 是 为 聚合 后 的 共享 单位 特性 构 念 加 了 一 道 “ 保 
险 ”: 确保 该 构 念 可 以 与 其 他 构 念 产生 有 意义 的 关联 Games, 1982)， 确 保 路 径 系 数 估计 值 准 确 无 偏 。 
其 次 ， 从 实证 上 看 ， 组 内 信 度 只 能 在 一 定 程 度 上 间接 推断 组 内 一 致 性 ， 且 不 够 准确 。 考 察 发 展 肪 
络 可 知 ， 数 据 聚 合 问题 衍生 自 对 组 织 气 氛 〈organizational climate) 的 研究 ， 最 初 用 来 衡量 聚合 适当 性 
的 指标 其 实 是 ICC(1)Uames, 1982), KX ICC(1) 的 计算 实质 是 比较 组 间 变 异 与 组 内 变异 的 相对 大 小 ， 
ICC(1) 较 大 意味 着 组 间 变 异 较 大 、 组 内 变异 较 小 , 也 就 是 组 内 一 致 性 很 高 .随机 性 很 低 (Bartko, 1976; 罗 
胜 强 , Zk, 2014)。 但 问题 在 于 ， 组 内 变异 和 组 间 变 异 并 非 此 消 彼 长 的 关系 ， 二 者 可 以 同时 都 很 大 ， 


此 时 就 会 出 现 ICC 很 高 但 组 内 一 致 性 很 低 的 矛盾 现象 (Bliese, 2000; Kozlowski & Hattrup, 1992). 例如 ， 
表 7 呈现 了 6 个 4 人 小 组 对 某 一 题 项 的 评分 ， 由 组 均 分 的 差异 可 以 推测 组 间 变 异 较 大 ， 计 算 结果 为 
ICC(1)=0.74，ICC(2)=0.92; 但 也 容易 观察 到 第 5、6 组 成 员 的 评分 有 不 小 的 组 内 分 歧 ， 进 一 步 算得 这 
两 组 的 rweu) 值 分 别 只 有 0.26、0.45。 这 清楚 地 揭示 出 组 内 信和 度 的 严重 缺陷 ， 即 不 能 提供 各 组 组 内 一 致 
性 的 详细 信息 ， 而 且 对 一 致 性 不 足 的 组 不 敏感 。 我 们 在 分 析 中 也 发 现 样 本 文献 中 的 ICC(1). ICCQ) 
与 rwc 均 值 的 相关 均 不 显著 (r=0.08、-0.06，ps>0.05) ， 进 一 步 表 明 组 内 信和 度 与 组 内 一 致 性 并 无 实质 
联系 。 

由 此 ， 组 内 信 度 在 理论 上 不 直接 触及 组 内 一 致 性 ,在 统计 上 不 能 准确 估计 组 内 一 致 性 ， 不 适合 作 
为 聚合 适当 性 的 指标 。 但 也 要 看 到 ，ICC(1) 和 ICC(2) 在 共享 单位 特性 构 念 的 信和 度 、 效 度 检验 上 发 挥 着 
很 大 作用 。ICC(1) 反 映 组 间 差 异性 ， 它 不 是 共享 单位 特性 构 念 存在 的 核心 证 据 ， 而 是 检测 构 念 之 间 关 
AW BABS, 庄 静 嘉 , 2012)， 更 适合 作为 共享 单位 特性 构 念 的 效 度 指标 。ICC(2) 是 组 内 所 有 成 员 评 


分 的 均值 的 可 靠 性 ， 即 组 均值 的 信 度 (Bliese, 2000; Dixon & Cunningham, 2006)， 全 样本 的 ICC(2) 实 际 
上 是 所 有 组 的 组 均值 信和 度 的 平均 水 平 。 若 以 经 典 测 量 理论 来 解释 ，ICC(2) 类 似 于 权重 ， 衡 量 了 样本 均 
值 在 组 真 值 ( 未 知 参数 ) 估计 中 的 贡献 度 ， 组 间 变 异 越 大 、 组 内 人 数 越 多 ， 由 样本 计算 的 组 均值 的 可 
靠 性 越 高 ， 越 能 代表 组 真 值 的 潜在 水 平 ， 如 果 组 均值 的 信和 度 不 高 ， 就 必须 更 多 地 “ 借 力 ”于 总 体 均值 
的 估计 值 来 推测 组 真 值 (Raudenbush & Bryk, 2002; 温 福 星 ， 印 些 政 , 2015)。 可 见 ，ICC(2) 体 现 的 是 用 
组 内 成 员 评 分 的 均值 作为 该 组 在 某 构 念 上 的 潜在 水 平 的 信心 程度 。 由 于 最 常用 的 信 度 指标 Cronbach's 
o. 需要 以 所 有 评定 者 来 自 独立 同 质 的 总 体 和 单 层 次 因子 结构 为 前 提 ， 不 适用 于 违反 非 独 立 性 假设 的 旋 


套数 据 (Geldhof，Preacher & Zyphur, 2014; 温 福星 ， 邱 插 政 ， 201$)， 建 议 以 多 层次 数据 的 专用 指标 


ICC(2) 取 代 单 层次 Cronbach's a 做 共享 单位 特性 构 念 的 信 度 指标 (e.g., Jiang, Chuang, & Chiao, 2015), 


基于 ICC(2) 的 信 度 表示 的 是 组 均值 的 代表 性 而 不 是 题 项 的 内 部 一 致 性 。 
综合 以 上 分 析 , 组 内 一 致 性 和 组 内 信和 度 的 新 功能 定位 如 下 : 组 内 一 致 性 最 符合 
的 理论 规定 ， 是 聚合 适当 性 的 最 重要 标准 ， 回 答 的 是 “组 内 成 员 的 意见 是 否 足 够 一 致 ”或 “共享 单位 
特性 构 念 是 否 有 合理 的 存在 ”的 问题 ，ICC(1) 是 效 度 指标 ， 回 答 的 是 “ 构 念 在 组 间 的 差异 是 否 足 够 ” 
或 “ 构 念 间 的 关系 能 否 被 准确 估计 ”的 问题 ; ICC(2) 是 信和 度 指标 ， 回 答 的 是 “组 均值 对 组 真 值 的 代表 
足够 ”的 问题 。 组 内 一 致 性 和 组 内 信 度 都 属于 共享 单位 特性 构 念 之 信 效 度 检验 的 必要 程序 ， 但 
聚合 决策 应 主要 依据 组 内 一 致 性 信息 。 实 践 中 的 理想 情形 是 组 内 一 致 性 和 组 内 信 度 都 较 高 ， 这 时 做 出 
聚合 决策 就 有 充分 的 信心 ， 但 也 可 能 遇 到 以 下 两 种 矛盾 情形 : 


注意 


共享 单位 特性 构 念 


性 是 否 
A 
St 


a. 各 组 的 rwc 值 都 较 高 ， 


但 全 样本 的 ICC 值 较 低 。 


b. 全 样本 的 ICC 值 较 高 ， 但 


个 别 组 的 rwc 值 较 低 。 


ct 第 一 种 情 


暗示 各 组 均值 非常 接近 (应 留意 得 分 是 否 集中 于 量 表 的 高 分 端 或 低 分 端 ， 虽 然 在 理 
论 上 可 以 聚合 ,但 要 承担 统计 检验 力 降 低 和 构 念 间 关 系 的 估计 值 出 现 偏 误 的 风险 , 如果 ICC(1) 和 ICC(2) 
都 很 低 ， 数 据 分 析 结 果 就 不 可 信 ; 在 第 二 种 情形 下 ,组 内 一 致 性 不 达标 的 组 的 得 分 不 够 稳定 ， 会 为 整 
体 得 分 引入 随机 误差 ， 损 害 构 念 的 效 度 ， 建 议 将 其 剔除 〈 详 见 下 一 节 ) 。 

表 7 示例 数据 


a 


SS 


评分 者 A ”评分 者 B 评分 者 C ”评分 者 D 组 均 分 ”组 内 变异 Two). 

: 小 组 1 2 4 3 3 3.00 0.67 0.90 

-— 小 组 2 5 7 5 6 5.75 0.92 0.86 
f 小 组 3 1 3 1 2 1.75 0.92 0.86 
= 小 组 4 7 9 9 8 8.25 0.92 0.86 

小 组 5 2 4 6 1 3.25 4.92 0.26 

小 组 6 6 8 8 4 6.50 3.67 0.45 


资料 来 源 ， 罗 胜 强 和 姜 妊 (2014)，p.276; 表 中 内 容 有 增删 。 
YE: “基于 9 点 量 表 和 均等 分 布 计算 的 结果 。 


5.2 rwc 的 计算 与 数据 清理 
two 计算 中 的 最 大 困难 是 选择 合适 的 原 分 布 ， 对 此 尚 无 完美 的 解决 方案 。 作 为 权宜 之 计 ， 我 们 建 


究 者 响应 国外 学 者 的 呼吁 (Biemann et al., 2012; Castro, 2002; James et al., 


Wh 1984; Kozlowski & 
最 不 准确 的 均等 
论 和 已 有 研究 选择 一 种 蔡 
样 可 大 致 确定 组 内 一 致 性 真 值 的 范围 。 在 选择 替代 性 原 


应 仔细 考量 评定 者 可 能 存在 的 反应 偏差 。 在 组 织 管理 情境 中 一 些 非 随机 因素 的 作用 下 ， 成 员 


Hattrup, 1992; LeBreton & Senter, 2008)， 不 要 仅 使 用 最 保守 、 结 果 最 “理想 ”也 可 能 
分 布 ， 而 应 将 均等 分 布下 的 计算 结果 视 为 组 内 一 致 性 的 近似 上 界 ， 另 参考 理 
代 性 原 分 布 来 估计 组 内 一 致 性 的 近似 下 界 ， 这 
分 布 时 ， 


的 反应 容易 带 有 社会 赞许 ' 


HE 


、 趋 中 偏差 Ccentral tendency bias) 、 宽 大 1 


m (leniency bias) / 严 苛 偏差 


(severity bias) 等 ， 它 们 会 导致 “随机 反应 ”偏离 均等 分 布 ， 呈 现 三 角形 分 布 或 偏 态 分 布 (James et al., 


1984; Klein et al., 2001; Ng, Koh, Ang, Kennedy, & Chan, 2011; Smith-Crowe, Burke, Cohen, & Doveh, 


2014; Smith-Crowe, Burke, Kouchaki, & Signal, 2013); 另外 ， 组 织 中 的 某 些 社会 、 心 理 、 政 治 因 素 会 成 


为 强 
的 反 


情境 线索 ， 对 成 员 的 反应 偶 


Sy 


个 


差 造成 普遍 的 系统 性 影响 (Meyer et al., 2014)。 表 8 总 结 了 组 织 中 常见 


应 偶 差 及 相应 的 原 分 布 ， 研 究 者 可 参照 选择 替代 性 原 分 布 并 在 文中 给 出 具体 的 理由 。 一 般 而 言 ， 


有 组 


种 情 
明确 


或 错误 解释 (misinterpreted) (Castro, 2002; Van Mierlo et al., 2009) 。 


价 同 事 、 主 管 和 自己 的 


EI, d 


rys 计算 完成 后 ， 研 究 者 可 能 会 发 现 有 一 些 样本 组 未 能 达到 合格 标准 ， 
些 组 ， 学 界 对 此 立场 不 一 : 有 的 学 者 较为 宽容 ， 主 张 只 要 全 样本 的 rwc 均 值 或 中 位 数 达 标 ， 就 可 将 所 
纳入 后 续 分 析 ， 无 需 吻 除 不 合格 的 组 ， 
升 (Carron et al., 2003; LeBreton & Senter, 2008); 也 有 学 者 建议 进行 敏感 性 分 析 ， 即 在 剔除 和 不 剔除 两 


况 下 分 别 分 析 数 据 ， 比 较 结果 是 否 有 显 


否则 会 导致 样本 量 减少 、 统 计 检 验 力 降低 、I 型 错误 率 上 


指出 不 合格 的 组 不 应 保留 


否则 会 


FE 定 者 倾向 于 给 出 比 实际 情况 更 加 积极 的 评价 ， 因 此 轻 度 偏 态 分 


有 广泛 适用 性 的 推荐 选项 (e.g., Rego, Cunha, & Simpson, 2018; Schaubroeck, Shen, & Chong, 2017)。 


BE POR BR GEE all RIK 


T 


著 差 异 (Biemann et al., 2012; Woehr et al., 2015); 还 有 学 者 


导致 构 念 间 的 效应 缺失 (missed) 、 虚 假 效 应 (misidentified) 


从 实践 来 看 ， 国 外 大 多 数 研究 都 


选择 保留 所 有 样本 组 (Burke et al., 2018) ,我 们 也 发 现 样本 文献 中 仅 有 3 篇 (Farmer, Van Dyne, & Kamdar, 


2015; 


排除 
不 难 


不 合格 的 组 ? 其 实 这 不 是 统计 问题 


找到 答案 。 前 面 已 论述 


很 差 


提示 团队 成 员 不 够 团结 (Moritz & Watson, 1998), 甚至 已 分 裂 为 


SA, 张 钢 , 2015; SA, KR, 杨涛 , 2015) 明 确 报告 删除 了 rw 值 未 达标 的 组 。 究 竟 是 否 应 当 


， 而 是 理论 问题 ,只 要 回 到 共享 单位 特性 构 念 的 本 质 内 涵 上 就 


过 , 组 内 成 员 的 共同 认 知 才 是 共享 单位 特性 构 念 存在 的 根基 ,组 内 一 致 性 


组 (subgroup) 或 “小 帮派 ”(Castro， 


2002; LeBreton, James, & Lindell, 2005)， 根 本 无 法 形成 共识 ， 强 行 聚 合 不 但 违反 了 共享 单位 特性 构 念 


NERY 


企 假设 ， 而 且 不 可 靠 的 组 均值 会 为 构 念 的 测 
组 内 一 致 性 不 达标 的 组 排除 ， 对 剩余 样本 组 


”虽然 不 满足 聚合 的 条 件 ， 较 低 的 纪 


m 


有 内 一 致 性 仍 


两 方面 研究 价值 ， 其 一 ， 在 离散 模型 


量 引 入 误差 。 因 此 ， 建 议 研究 者 坚守 严格 的 标准 ， 将 
了 次 检验 ICC(1) 和 ICC(2) 以 确认 构 念 的 信 效 度 。 


Y (dispersion model) 中， 作为 


表征 组 内 差异 性 的 独立 构 念 (如 气氛 强 SERI 领导 一 成 员 交 换 差异 化 ); 其 二 ， et 有 现 模型 (consensus emergence model ) 


中 ， 揭 示 组 织 成 员 在 人 价值观、 信念 


行 


为 等 方面 


的 一 致 性 的 动态 发 展 过 程 。 感 兴趣 的 


Bliese, & de Voogt, 2018; Lang, Bliese, ae in press; Wi, 李 永 娟 ， 田 晓 明 , 2012). 
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读者 可 查阅 相关 文献 (e.g.，Lang, 


表 8 组 织 管理 研究 中 常见 的 反应 偏差 及 原 分 布 


反应 偏差 描述 对 应 的 原 分 布 部 分 适用 情境 
1. 测 量 的 是 对 工作 环境 的 感知 和 评价 (特别 是 带 
指 评定 者 倾向 "m" 有 负 效 价 的 构 念 ) ， 如 团队 负 性 情绪 氛围 、 团 队 冲 
社会 赞许 性 ”于 按照 他 人 期 望 的 ee R FEREG 
方式 做 出 评定 2. 无 法 保证 问卷 的 匿名 性 (例如 在 领导 一 部 属 配 
对 调查 中 使 用 编号 、 代 号 等 以 便 识别 评定 者 的 身份 ) 


1. 题 项 含义 模糊 、 表 述 不 清 或 过 于 复杂 
2. 评 定 者 缺乏 专门 培训 


指 评定 者 倾向 m— 3. 评 定 者 缺乏 参与 动机 ， 不 愿 表明 态度 
趋 中 偏差 ” 于 隐藏 真实 态度 ， ideae 4. 做 出 的 回答 牵涉 到 评定 者 的 个 人 利益 且 无 法 
选择 中 立 的 选项 保证 匿名 
5. 集 体 主义 文化 中 的 个 体 评价 自己 的 绩效 和 工 
He BE FH 
1. 评 价 主管 的 积极 领导 力 和 其 他 组 织 所 重视 的 


优良 特质 时 在 进行 面对面 或 非 匿名 的 评价 时 ， 或 
i.n eres 评定 者 具有 高 权力 距离 取向 和 集体 主义 价值 观 时 ， 
宽大 偏差 o mmu danega) ， 宽大 信 关 会 加 重 ， 导 致 中 度 到 重度 偏 态 ) 
2 .评价 同事 和 团队 的 绩效 和 其 他 积极 特质 时 
3. 主 管 为 了 得 到 部 属 的 支持 或 展现 自己 的 领导 


能 力 ， 在 评价 部 属 的 绩效 时 会 打分 侦 


HI 


最 后 还 有 两 点 提示 : 第 一 ,研究 者 大 多 希望 rwc 值 越 高 越 好 , 但 单个 组 过 高 的 rwc 值 (如 高 于 0.97) 


也 是 一 个 警示 信号 ,上 暗示 成 员 的 评分 可 能 多 集中 于 量 尺 的 端点 (最 高 分 或 最 低 分 )(Carron et al., 2003). 


此 时 应 检查 原始 数据 ， 如 果 情 况 属实 ， 不 排除 有 外 力 介 入 《如 主管 的 诱导 、 指 示 ) 或 无 效 施 测 ( 如 相 


互 传 抄 或 指定 某 人 代 填 ) 的 可 能 ， 特 别 是 rwc 值 为 1 的 组 "嫌疑 更 大 ， 建 议 将 这 种 呈现 “可 疑 一 致 性 ” 


的 组 当做 异常 值 别 除 。 当 然 ， 准 确 鉴别 合理 的 高 一 致 性 和 可 疑 一 致 性 有 赖 于 研究 者 的 经 验 ， 但 更 重要 


的 是 在 量 表 编 制 和 调查 实施 阶段 做 好 质量 控制 。 第 二 ， 关 于 结果 报告 时 rwc 均 值 和 中 位 数 的 选择 ， 建 


究 者 同时 报告 这 两 个 值 ， 理 想 情 况 下 它们 应 当 非 常 接近 ,但 如 果 二 者 相差 较 大 ， 提 示 可 能 存在 极 


zn 


议 
端 组 ， 有 必要 逐一 检查 ， 寻 找 组 内 一 致 性 过 低 或 过 高 的 组 。 


5.3 划 客 值 的 选取 
组 内 一 致 性 和 组 内 信 度 的 合格 标准 是 长 久 以 来 的 争论 焦点 。rwc 和 ICC(2) 最 广 为 接 受 的 划 界 值 之 


所 以 是 0.7， 是 因为 早期 文献 将 这 两 个 指标 都 归 为 信 度 的 范畴 ， 虽 然 rwe 后 来 被 修正 为 组 内 一 致 性 的 


指标 ， 但 0.7 的 划 界 值 却 沿用 至 今 ，ICC(1) 最 常用 的 划 界 值 0.12 仅 源 于 James. (1982) 对 少量 文献 的 结 


”这 表明 组 内 成 员 的 所 有 评分 完全 相同 ， 组 内 变异 为 0， 因此 无 论 使 用 哪 种 虚无 分 布 计算 ，rwc 始终 等 于 1。 
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?H 


汇总 。 这 些 武断 的 经 验 标准 缺乏 坚实 的 理论 根基 , 而 且 存在 简单 化 倾向 , 未 能 精细 地 考虑 组 内 人 数 、 


题 项 数量 、 计 分 点 数 等 因素 的 潜在 影响 (Cohen et al., 2001; Lance et al., 2006; LeBreton & Senter, 2008), 
遭 到 了 越 来 越 多 的 批评 。 

为 摆脱 对 经 验 标准 的 依赖 ， 部 分 学 者 寻求 对 组 内 一 致 性 进行 显著 性 检验 ， 找 到 客观 且 有 统计 学 依 
据 的 划 界 值 ， “另起炉灶 ”建立 一 套 统计 标准 。 基 本 思路 是 ， 预 先 设 定 若干 背景 条 件 〈 如 组 内 人 数 、 
题 项 数量 、 计 分 点 数 、 题 项 间 的 平均 相关 系数 、 原 分 布 ) ， 再 使 用 基于 Monte Carlo 模拟 的 近似 随机 


化 检验 (approximate randomization test) 或 随机 组 重 取 样 法 (random group resampling) 生成 海量 模拟 


数据 ， 找 出 各 种 条 件 组 合 下 rwo 值 的 95% 百 分 位 数 作为 临界 值 (Cohen et al., 2001; Cohen et al., 2009; 


Dunlap et al., 2003; Smith-Crowe et al., 2014)”。 从 假设 检验 的 角度 看 ， 其 目的 是 推断 样本 来 自 的 总 体 
是 仅 具有 巧合 或 偶然 的 组 内 一 致 性 (chance agreement), 还 是 具有 系统 的 组 内 一 致 性 (Dunlap et al., 2003; 
O'Neill, 2017)。 统 计 标 准 克服 了 经 验 标准 的 主观 性 次 端 ， 但 也 有 两 个 突出 问题 ,第 一 ， 设 定 的 条 件 只 
是 一 些 典 型 值 ， 远 无 法 涵 立 实际 研究 中 的 所 有 情况 ， 常 常 难 以 找到 与 研究 的 具体 条 件 完全 契合 的 精确 
临界 值 。 第 二 ， 达 到 统计 显著 性 只 是 拒绝 了 “不 存在 组 内 一 致 性 ”的 虚无 假设 ， 但 不 能 保证 组 内 一 至 
性 足够 高 。 表 9 展示 了 部 分 条 件 组 合 下 rwc 达 到 0.05 的 显著 性 水 平时 的 临界 值 ， 可 知 组 内 人 数 为 5 人 
时 临界 值 较 高 〈 在 0.8 左右 ) ， 而 组 内 人 数 达到 10 人 且 题 项 较 少 时 ， 临 界 值 明 显 降低 ， 甚 至 低 于 0.7 
的 经 验 标 准 ， 这 样 即使 在 统计 上 显著 ， 实 际 意义 也 不 大 。 受 此 限制 ， 统 计 标 准 不 能 很 好 地 满足 研究 需 


TE 
E 


就 达到 聚合 所 需 的 充分 的 组 内 一 致 性 而 言 ,经 验 标准 有 更 高 的 实用 价值 (Liidtke & Robitzsch, 2009; 
O'Neill, 2017), 仍 可 作为 聚合 决策 的 主要 依据 , 但 需要 进行 修正 和 改进 , 目前 有 两 条 路 径 : 一 是 将 “ 通 
过 一 不 通过 ”的 二 分 式 评判 细 化 为 类 似 效应 量 评价 的 等 级 制 ， 如 区 分 为 小 效应 、 中 效应 、 大 效应 ; 二 
是 以 现 有 研究 的 平均 水 平 为 参照 系 ， 如 Woehr 等 (2015) 对 近 200 篇 文献 的 汇总 结果 。 我 们 力图 将 这 两 
种 策略 加 以 整合 , 尝试 性 地 提出 组 内 一 致 性 和 组 内 信 度 的 新 标准 。 具体 而 言 , 对 于 均等 分 布下 的 rwe， 
Woehr 等 从 文献 中 汇总 的 rwc 均 值 为 0.84， 本 研究 汇总 的 结果 为 0.87/0.84《〈 中 文 文献 MA4P 文献 ) ， 而 


Brown 和 Hauenstein (2005). LeBreton 和 Senter (2008) 划 定 的 “ 强 一 致 性 ”的 标准 分 别 是 rwc>0.8、 


0.71<rwcs0.90， 故 建议 rwe 的 临界 值 在 均等 分 布下 设 为 0.8， 在 轻 度 偏 态 分 布下 稍微 放宽 ， 设 为 0.7。 


对 于 ICC(1)，LeBreton 和 Senter (2008) 提 出 0.01、0.1、0.25 可 分 别 对 应 于 小 效应 、 中 效应 、 大 效应 ， 


本 研究 和 Woehr 等 汇总 的 平均 值 分 别 为 0.276/0.241 CAP) 、0.21， 我 们 建议 以 达到 0.2 HEE, BK 


”本 研究 选取 的 英文 文献 中 有 4 篇 对 rwc 值 进行 了 这 种 显著 性 检验 。 
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要 求 方 差分 析 的 下 检验 至 少 达到 0.01 的 显著 性 水 平 ， 确 保有 较 大 的 效应 量 。ICC(2) 是 ICC(1) 和 组 内 
究 的 组 内 人 数 通常 不 多 [本 研究 和 


Woehr 等 的 汇总 结果 分 别 为 5.10/4.76( 中 /JAP， 中 位 数 ) 、6.93]， 取 得 较 高 的 ICC(2) 相 对 困难 ，0.7 


人 数 的 函数 ， 评 分 者 的 增加 会 使 ICC(2) 随 之 提高 ， 但 组 织 管理 下 


的 常规 标准 略 显 严 苛 《本 研究 的 中 、 英 文 样本 文献 分 别 只 有 一 半 和 三 分 之 一 的 ICC(2) 超 过 了 0.7) 。 


的 信 度 需要 达到 0.6( 也 见 FERE, 王 重 鸣 , 2008)， 该 标准 在 JAP 


考虑 到 Glick (1985) 曾 在 讨论 组 织 气 氛 的 测量 


问题 时 提出 ， 无 论 采 


] 哪 种 计算 指标 ， 
也 多 次 被 引 月 


聚合 


后 的 组 均值 
,我们 认为 在 ICCA) 


达标 的 前 提 下 , 可 以 把 0.6 作为 ICC(2) 可 接受 的 下 限 , 建议 平均 组 内 人 数 少 于 8 人 时 放宽 标准 至 0.6, 


达到 8 人 时 取 0.7， 如 果 人 数 过 多 (如 超过 200 最 好 进一步 提高 标准 以 抑 


当然 ， 为 基本 条 件 千 差 万 别 的 下 
准 ， 而 应 容许 适度 的 变通 空间 (Krasikova & LeBreton, 2019)。 研 究 者 可 以 根 和 
或 宽松 的 标准 ， 但 应 有 理 有 据 ， 并 在 分 析 数 据 之 前 就 设 定好 ， 不 可 随 
加 强 理论 思考 ， 克 服 将 经 验 标 准 绝对 化 的 不 良 倾向 ， 避 免 “把 胡 


定 标准 ”( 辛 自强 , 2018, p.346)。 


究 设 定 统一 的 划 界 值 并 不 “ 公 


Y", NIAE 


BSED SOLARA 


表 9 部 分 条 件 组 合 下 ruc HIlbAa 


5 RHS 

P 38 5 题 108 
0.4 0.74 0.76 0.83 
0.6 0.79 0.81 0.88 


0.4 0.57 0.63 0.73 


0.6 0.61 0.68 0.78 
0.4 0.78 0.81 0.86 
0.6 0.82 0.85 0.90 
0.4 0.65 0.70 0.78 
0.6 0.68 0.75 0.84 
0.4 0.80 0.83 0.88 
0.6 0.85 0.87 0.91 
0.4 0.67 0.73 0.80 
0.6 0.71 0.77 0.85 


资料 来 源 : 根据 Smith-Crowe 等 (2014) 的 模拟 研究 结果 整理 而 成 。 


验 效 度 和 信和 度 ， 因 为 只 有 通过 了 


ae 


Bl] ITCC(2) 的 膨胀 效应 。 
固守 一 成 不 变 的 标 
昌 稍 加 严格 


意 更 改 。 最 重要 的 是 , 而 


究 的 责任 交 给 计算 机 和 这 些 忆 


7 点 计 分 
3 题 5 题 10 题 
0.75 0.77 0.84 
0.78 0.82 0.88 
0.57 0.64 0.74 
0.61 0.70 0.80 
0.78 0.81 0.86 
0.82 0.85 0.90 
0.64 0.70 0.79 
0.69 0.76 0.84 
0.81 0.83 0.88 
0.84 0.87 0.92 
0.67 0.72 0.81 
0.71 0.77 0.85 
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TE: N-2H VJ AB; p= 题 项 间 的 平均 相关 系数 ;实际 计算 的 rwcw 值 大 于 表 中 的 临界 值 表 示 
最 后 ， 整 合 上 述 实 践 建议 ， 本 研究 提出 一 套 包含 聚合 适当 性 检验 在 内 的 
度 检 验 程序 〈 表 10) ， 研 究 者 可 参照 执行 ， 并 将 检验 结果 呈现 于 论文 “而 


录 提 供 了 各 指标 的 计算 工具 ) 。 还 需 说 明 两 点 : 


合适 当 性 检验 ， 才 能 确认 高 层次 构 念 的 


HA AE EE 


C1) 按照 逻辑 顺序 ， 应 当先 检 可 


Lp Rr) A 


ECp«0.05). 
k 享 单位 特性 构 念 的 信 效 


完结 果 ” 部 分 的 第 一 节 《 附 
令 聚 合适 当 性 ， 再 检 


了 人 
AR A 


分 数 有 效 ， 可 月 


于 后 续 


4M. (2) 在 效 度 检验 环节 ， 
子 分 析 以 检验 区 分 效 度 ， 但 这 


不 少 研究 会 


把 高 层次 构 念 与 其 他 个 体 层次 构 念 放 在 一 起 进行 验证 


种 做 法 忽视 了 数据 的 能 套 特性 ， 将 高 层次 构 念 “降级 ”为 低层 次 构 念 ， 


性 因 


= 


混淆 了 组 内 和 组 间 因 子 结构 , 是 错误 的 。 正 确 的 做 法 是 对 高 层次 构 念 单独 执行 多 层次 验证 性 因子 分 析 ， 


同时 分 析 组 内 和 组 间 协 方差 矩阵 ， 


(Dyer, Hanges, & Hall, 2005; ai kX, 


Co RAM. H RB) 等 (Geldhof et al., 2014; H Bik, HNS, 


BA 


信和 度 (psychometric reliability) 与 聚合 


Woo, 2019). 


{GFE Caggregate reliability, HJ 


表 10 共享 单位 特性 构 念 的 信 效 度 检验 程序 


推荐 做 法 


1.1] 8] JE s rfr y 
构 念 所 在 的 
据 


层次 及 理论 


IL 准备 阶段 


2. 报 告 预 先 设 定 的 


AK 


性 


各 


指标 的 划 界 值 ， 需 简 


由 或 引用 相关 文献 


1. 报 告 拟 使 用 上 
布 (至少 2 种 ) 及 理 
2. 分 别 报告 各 原 


当 性 检验 “下 全 样本 的 rwc 均 


数 、 范 围 、 达 到 划 
组 的 比例 、 因 
剔除 的 组 的 数量 


界 


不 达标 而 


和 


1. 报 告 ICC(1) 值 
差分 析 的 五 检 验 结果 
2. 报 告 多 
子 分 析 结 果 


TIT. X SETS Us 


大 


1. 报 告 ICC(2) 值 人 
信 度 ) 

2. 如 可 以 实现 多 
验证 性 因子 分 析 ， 
算 组 间 的 Cronbach's a 
o AŽ H R% OGEI 


=! 
Zx 


IV. 信 度 检 验 


层次 验证 性 


方 


次 


还 应 计 


或 


E. 
EH 


学 信和 度 ) 


6 结语 


围绕 多 层次 和 


究 的 数据 聚合 适 


当 性 检验 中 的 三 个 争议 问题 ， 本 看 
心 期 刊 2014 年 以 来 发 表 的 相关 文献 进行 了 内 容 分 析 和 评价 ， 


不 恰当 的 做 法 


1. 忽 视 对 构 念 所 在 层 
次 的 思考 和 讨论 
2. 固 守 


补充 说 明 


对 构 念 所 在 层次 的 阐 


陈旧 的 不 合理 
的 划 界 值 ， 无 根据 地 任意 
选取 划 界 值 ， 不 明确 报告 
划 界 值 ， 文 献 引 用 不 当 


mH 


153584) fti 
居 地 选取 原 分 


1. 只 使 
2. 无 根 ] 


布 


3. 结 报告 不 全 ， 如 只 
报告 TwG 均 值 
4. 对 rwc 值 不 达标 的 组 
不 加 处 理 


把 高 层次 构 念 与 个 体 
层次 构 念 放 在 一 起 ， 执 行 
常规 的 单 层 次 验证 性 因子 
分 析 


= 


忽视 组 间 结 构 ， 以 单 
层次 的 Cronbach’s a 作为 
整体 信 度 指标 


述 应 置 于 理论 模型 构建 部 
4 Ch TAEB 


应 检查 每 个 样本 组 的 
rwc 值 ， 将 rwc 值 不 达标 和 
过 高 的 组 排除 出 后 续 分 
Wr; 如 果 不 合格 的 组 过 多 ， 
建议 检查 施 测 过 程 、 补 充 
数据 


1. 如 果 ICC(1) 较 小 , 构 
念 间 的 关系 可 能 被 低估 ， 
应 在 文中 讨论 这 种 局 限 性 

2. 如 果 组 数 较 少 , 多 
次 验证 性 因子 分 析 容 易 量 
现 收敛 困难 或 估计 偏 


Nf 


co 


" 


当 组 内 人 数 较 多 时 ， 
ICC(C2) 容 易 膨 胀 ， 需 确保 
ICC() 足 够 大 ; SAA AR 
较 少 时 ， 如 果 ICC(1) 较 大 ， 
略 小 的 ICC(C) 亦 可 接受 
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性 问题 表现 ， 


ani 


Ts BE 


重点 考察 模型 的 整体 拟 合 度 以 及 组 间 结 构 的 因子 负荷 是 
毕 向 阳 , 2018); 还 可 进一步 计算 组 间 的 Cronbach's a £I 
郭 少 阳 ， 贺 冠 瑞 , 2019)， 达 成 心理 测量 学 


ICC(2)) 的 互补 (Jebb, Tay, Ng, & 


究 对 国内 9 份 管理 学 、 心 理学 核 


总 结 了 研究 中 的 普遍 


并 提 


出 初步 的 解决 措施 和 操作 程序 。 我 们 不 以 批评 和 挑刺 为 目的 ， 而 是 希望 研究 者 能 够 意识 到 某 些 习惯 性 
做 法 的 不 妥 之 处 并 及 时 补救 ， 力 求 更 可 靠 、 更 精确 地 测量 高 层次 构 念 。 当 然 ， 本 研究 距离 彻底 解决 问 
题 并 确立 “最 佳 实践 ”模式 还 有 很 远 的 距离 ， 很 多 研究 缺口 仍 有 待 填 补 。 近 期 尤其 值得 关注 的 是 多 层 
次 结构 方程 模型 的 应 用 ， 它 将 高 层次 构 念 按 潜 变量 来 建 模 ， 对 测量 误差 和 抽样 误差 进行 双重 校正 ( 毕 
向 阳 , 2019)， 可 实现 “ 潜 ” 聚 合 ， 比 忽略 测量 误差 而 简单 取 均 值 的 “ 显 ” 聚 合 有 更 高 的 估计 精度 ， 有 
望 改变 聚合 问题 的 研究 走向 。 

最 后 要 强调 的 是 , 研究 者 不 能 仅仅 将 这 一 系列 检验 当做 数据 驱动 下 的 简单 决策 过 程 或 论文 评审 所 
需 的 “统计 仪式 ”， 而 应 熟悉 背后 的 原理 ， 增 强 对 理论 的 关照 和 审视 。 多 层次 研究 的 一 个 基本 前 提 是 
Jig. JU TURA EDDA T HI EX f DU CR USE FE EUCH] VESTRE v (Mathieu & Chen, 2011), 
而 很 多 高 层次 构 念 的 数据 只 能 由 团体 内 个 体 报告 的 结果 汇总 而 来 ， 为 缓和 这 种 矛盾 ， 必 须 通 过 系统 的 
聚合 适当 性 检验 和 信 效 度 检 验 来 证 明 低层 次 数据 能 够 有 效 代表 高 层次 构 念 的 潜在 水 平 。 但 统计 检验 不 
能 代 蔡 理论 分 析 ， 数 据 聚 合 在 本 质 上 应 当 是 由 理论 驱动 的 ， 逻辑 起 点 是 对 高 层次 构 念 理论 合理 性 的 论 
证 。 研 究 者 必须 对 高 层次 构 念 为 何 定 位 于 团体 或 组 织 层次 、 高 层次 构 念 的 测量 方法 、 高 层次 构 念 与 实 


际 测量 的 低层 次 构 念 间 的 关系 、 推动 构 念 由 低层 次 上 升 到 高 层次 的 团体 内 互动 过 程 等 一 系列 问题 形成 


二 


周密 的 思考 和 清晰 的 阐释 (George & James, 1993; González-Romá, 2019; Morgeson & Hofmann, 1999), 
但 这 是 研究 者 在 实践 中 比较 欠缺 的 。 我 们 在 文献 梳理 过 程 中 发 现 , 对 理论 问题 的 轻视 已 经 引发 了 两 个 
不 良 后 果 : 一 是 构 念 所 在 的 层次 混乱 ， 例 如 有 的 研究 将 主管 的 领导 风格 聚合 到 团队 层次 ， 有 的 研究 却 
放 在 个 体 层 次 处 理 ";， 二 是 抛 开 理论 设 定 ， 单 纯 根 据 统 计 检 验 结果 决定 构 念 的 分 析 层 次 ， 例 如 发 现 某 
个 理论 上 应 处 于 团体 层次 的 构 念 的 ICC 值 过 低 ， 就 将 其 直接 作为 个 体 层 次 构 念 纳入 后 续 分 析 ， 完 全 不 
管 这 样 做 是 否 有 道理 。 为 避免 层面 误 设 ， 研 究 者 务必 先 依据 理论 确定 每 一 构 念 〈 包 括 控制 变量 ) 所 在 
的 层次 并 在 文中 论述 缘由 ， 再 采用 聚合 适当 性 检验 、 信 效 度 检验 或 非 独 立 性 检验 ”等 统计 手段 去 验证 
这 些 设 定 是 否 得 到 数据 的 支持 ， 而 不 是 任 由 数据 来 支配 理论 的 建构 。 
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附录 : 部 分 计算 工具 
(1) LeBreton 和 Senter (2008) 给 出 了 在 多 种 虚无 分 布 形态 和 不 同 计 分 点 数 下 的 期 望 变 异 值 


(pp.832-833) ， 在 计算 rwc 时 可 参考 。 


(2) Biemann 等 (2012) 开 发 了 基于 Excel 软件 的 免费 小 工具 (访问 www.sbuweb.tcu.edu/mcole 下 


载 ) ， 可 以 容易 地 计算 rwe、ICC(1)、ICC(2)、 值 等 ， 并 给 出 了 展示 聚合 适当 性 检验 结果 的 表格 模板 


(p.78) 。 


(3) Krasikova 和 LeBreton (2019) 编 写 了 计算 rwo、ICC(1)、ICC(2) 的 R 软件 代码 Cpp.300-302) 。 


(4) 温 福星 和 印 插 政 (2015) 给 出 了 用 SPSS 计算 rws 的 语法 示例 (pp.55-57) 。 


(5) BARE SEAM SR 2014)25 HH fH] SPSS 计算 ICC(1D) 和 ICC(2) 的 示例 〈pp.280-283) 。 


Data aggregation adequacy testing in multilevel research: A critical 
literature review and preliminary solutions to key issues 


ZHU Haiteng 
(Department of Military and Ideological Basic Education, PLA Army Academy of Artillery and Air Defense, 
Hefei 230031, China) 


Abstract: The measurement of shared unit property constructs is ubiquitous in multilevel organizational 
research, of which the most frequently used approach is to aggregate the ratings of several unit members to 
the unit level. The data aggregation adequacy testing (DAAT) is a statistical hurdle to ensure the validity and 
representativeness of aggregated scores. Well-established indicators of DAAT include within-group 
agreement index, rwg, and within-group reliability indices, ICC(1) and ICC(2); nonetheless, some key issues 
are still open to debate, for instance, the superiority of the two families of indicators, the null distribution and 


data screening decision of rwg, and appropriate cut-off values. To address the above questions, the current 
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research firstly conducted a content analysis of 166 studies adopting DAAT procedure published on 9 
Chinese journals in the field of management and psychology since 2014, coupled with 85 studies from 
Journal of Applied Psychology as a comparison. Common problems in routine practice of DAAT were 
identified and related suggestions were proposed as follows: (1) Disentangling and differentiating the role of 
DAAT indicators; specifically, rw; should be used as the exclusive indicator of aggregation adequacy, 
whereas ICC(1) and ICC(2) should be deemed as indices of validity and reliability, respectively. (2) Making 
prudent and justifiable decisions in choosing null distributions when calculating rwg index, and excluding 
groups with low within-group agreement. (3) Applying more reasonable and moderately flexible cut-off 
values instead of arbitrary and rough practical standards. Last but not the least, researchers should always 
prioritize theoretical considerations in the process of framework building and DAAT, and unload 
disproportionate dependence on statistical results. 

Key words: multilevel research; shared unit property; aggregation; within-group agreement; within-group 
reliability 
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